dr Tomasz Koszlajda
Instytut Informatyki Politechniki Poznańskiej
Nowoczesne zastosowania informatyki usprawniające pracę urzędów
Wstęp
Jedną z istotnych dziedzin zastosowań informatyki jest automatyzacja prac biurowych. Dwoma uniwersalnymi celami osiąganymi przez stosowanie narzędzi informatycznych jest zwiększenie wydajności i niezawodności pracy. W wypadku urzędów przekłada się to na zwiększenie wydajności pracy poszczególnych urzędników w wyniku automatyzacji, niektórych wykonywanych przez nich czynności, ograniczenia pola popełnianych błędów przez zakodowanie poprawnych procedur postępowania w wykorzystywanych w urzędzie programach komputerowych oraz zaoferowania pewnych nowych usług niedostępnych bez stosowania narzędzi informatycznych. W urzędach, typowe i coraz powszechniejsze są dwie klasy zastosowań informatyki: wsparcia wydajności i niezawodności pracy poszczególnych urzędników oraz przybliżenia urzędów obywatelom.
Pierwsza z tych klas zastosowań wspiera wydajność i niezawodność pracy pojedynczych urzędników, przede wszystkim, poprzez wykorzystanie uniwersalnych narzędzi informatycznych takich jak systemy obsługi
plików, edytory tekstu i programy obsługi poczty elektronicznej, a rzadziej również arkuszy elektronicznych. Umiejętność obsługi takich narzędzi jest nabywana podczas edukacji szkolnej, na dodatkowych kursach oferowanych przez pracodawców, a nawet na kursach dla bezrobotnych. Umiejętność korzystania z tej klasy narzędzi jest elementarnym wymogiem dla coraz większej liczby miejsc pracy na współczesnym rynku pracy. Innym sposobem na zwiększenie wydajności i niezawodności pracy urzędników jest wdrożenie w urzędach dedykowanych aplikacji baz danych. Aplikacje baz danych pozwalają na osiągnięcie tych celów poprzez automatyzację rutynowych procedur postępowania. Umiejętność obsługi tej klasy programów jest zdobywana na szkoleniach będących immanentną częścią wdrożenia systemów informatycznych.
Celem drugiej klasy zastosowań jest przybliżenie urzędów do obywateliw wyniku zwiększenia dostępności informacji o pracy urzędów oraz stworzenia możliwości zdalnego kontaktowania się z urzędami. Technologią stosowaną do osiągnięcia tego celu są aplikacje internetowe. Proste aplikacje umożliwiają zdalne udostępnianie informacji, bardziej złożone pozwalają obywatelowi na dwustronną komunikację z urzędem. Dostęp do urzędów poprzez Internet jest określany pojęciem e-government.
W zdecydowanej większości polskich urzędów wymienione powyżej zastosowania wyczerpują zakres stosowanych technologii informatycznych. Tymczasem wydaje się, że w urzędach potrzebne są również narzędzia informatyczne umożliwiające realizację dodatkowych ważnych celów. Po pierwsze, wspomożenia pracy nie tylko pojedynczych urzędników, ale również zwiększenia wydajności i niezawodności pracy urzędów jako całości, poprzez zastosowanie systemów zarządzania przepływami pracy (ang. workflow management). Drugim istotnym obszarem zastosowania nowych technologii informatycznych jest wsparcie pracy kierownictw urzędów przez aplikacje analityczne magazynów danych (ang. data warehouse).
Typową sytuacją w urzędach (jak i dowolnych innych jednostkach organizacyjnych) jest to, że ich pracownicy w ramach swoich obowiązków realizują zadania, które są częścią większych procesów. Na przykład, obsługa pojedynczego wniosku złożonego w urzędzie przez obywatela wymaga zazwyczaj różnych działań realizowanych przez kilku urzędników
w dłuższym okresie czasu. Powiązany zbiór tych działań tworzy tak zwany przepływ pracy (ang. workflow), który określa kolejność i inne ograniczenia, na przykład czasowe, dotyczące poszczególnych zadań składowych.
O ile - realizacja elementarnych zadań, wchodzących w skład takiego przepływu pracy, jest wspomagana przez stosowanie edytorów tekstu, służących do pisania opinii i decyzji, poczty elektronicznej umożliwiającej przekazywanie informacji, bądź całej sprawy między urzędnikami oraz specjalizowanych aplikacji bazy danych, umożliwiających rejestrację
wniosków i decyzji - to żadne z wymienionych narzędzi informatycznych nie wspiera realizacji zbioru tych zadań, jako pojedynczego procesu.
Systemy zarządzania przepływami pracy umożliwiają automatyzację zdefiniowanych przepływów pracy, integrując narzędzia informatyczne stosowane do realizacji zadań cząstkowych i realizując w sposób automatyczny lub półautomatyczny przepływ między nimi informacji, dokumentów i zadań. Systemy zarządzania przepływami pracy są uogólnieniem systemów automatyzujących jedynie przepływ dokumentów oraz systemów wspomagania pracy grupowej, w których główny nacisk położony jest na współdzielenie i wymianę informacji.
Z kolei typową sytuacją dla kierownictw urzędów jest podejmowanie decyzji nie wspartych odpowiednią analizą danych źródłowych. Sytuacja ta jest wynikiem braku kompletnych i wiarygodnych danych źródłowych oraz braku narzędzi umożliwiających złożoną analizę takich danych. Aplikacje analityczne wykonywane są w środowisku wyspecjalizowanych baz danych zwanych magazynami lub hurtowniami danych. Magazyny danych muszą być zasilane danymi źródłowymi pochodzącymi z operacyjnych baz danych. Przykładem takich operacyjnych baz danych mogą być: baza danych ZUS, bazy urzędów pracy lub baza danych PESEL. Wyróżnia się dwa podstawowe typy aplikacji analitycznych: aplikacje przetwarzające dane
w trybie on-line (ang. on-line analytical processing - OLAP), czyli bezpośrednio na żądanie użytkownika aplikacji oraz aplikacje realizujące tak zwaną eksplorację danych (ang. data mining).
W dalszej części artykułu przedstawiono technologie informatyczne związane z automatyzacją przepływów pracy oraz aplikacjami analitycznymi wykonywanymi w środowisku magazynów danych. W rozdziale 1 omówiono podstawowe pojęcia związane z przepływami pracy. Natomiast rozdział 2 zawiera prezentację koncepcji magazynów danych i aplikacji typu OLAP i eksploracji danych.
1. Automatyzacja przepływów pracy
Pojęcie przepływów pracy powstało w wyniku ewolucji pojęcia procesów produkcyjnych. Celem zdefiniowania procesów produkcyjnych było zwiększenie efektywności pracy przez określenie sieci elementarnych działań prowadzących do wyprodukowania finalnego produktu. Model procesów produkcyjnych obejmuje zbiór dobrze zdefiniowanych elementarnych zadań, pełnionych przez pracowników ról, reguł oraz ogólnej procedury postępowania. Realizacja poszczególnych zadań polegała na przetwarzaniu, przenoszeniu, testowaniu i składowaniu wytwarzanych produktów. Początkowo odpowiedzialność za przepływ produkowanych towarów między poszczególnymi stanowiskami i skojarzonych z nimi rolami, przestrzegania reguł i procedur postępowania w całości spoczywała na wykonawcach. We współczesnych zakładach produkcyjnych, na zautomatyzowanych liniach produkcyjnych, zarówno realizacja poszczególnych zadań, jak i przepływ przetwarzanych produktów między poszczególnymi stanowiskami jest całkowicie sterowany komputerowo.
Zasady wypracowane w procesach produkcyjnych zostały przeniesione do pracy biurowej i zaadoptowane w procesach informacyjnych. Elementarne zadania wchodzące w skład procesów informacyjnych polegają na tworzeniu, przetwarzaniu oraz przesyłaniu dokumentów i informacji. We współczesnych biurach i urzędach większość tych zadań jest zautomatyzowana - informacje są przetwarzane i przesyłane za pomocą komputerów. Pełna automatyzacja procesów informacyjnych polega na przejęciu przez komputery odpowiedzialności za przepływ zadań, dokumentów i informacji między składowymi elementami procesów. Uogólnieniem procesów informacyjnych i produkcyjnych są procesy biznesowe, w których przetwarzane są zarówno obiekty materialne, jak i informacje.
1.1 Modelowanie przepływów pracy
Formalną specyfikacją przepływów informacyjnych są przepływy pracy. Zdefiniowanie procesów jako przepływów pracy służy do ich lepszego zrozumienia: znalezienia niespójności, niejednoznaczności i wąskich gardeł przepływu informacji, dokumentów i zadań w ramach procesów. W następstwie definicja przepływów pracy może być podstawą do modyfikacji (ang. reengineering) i pełnej automatyzacji procesów informacyjnych. Na najwyższym poziomie abstrakcji przepływy pracy mogą być widziane jako sieci elementarnych zadań.
Dla przykładu, rozważmy fikcyjny przepływ pracy opisujący proces przyznawania przez jakiś urząd, koncesji na dobro rzadkie - na przykład pasma częstotliwości telewizyjnych i radiowych. Przepływ ten składa się
z pięciu zadań przedstawionych na rys. 1. Przyjęty przez urząd wniosek jest analizowany pod kątem poprawności formalnej, technicznych możliwości jego spełnienia oraz finansowej weryfikacji podmiotu składającego wniosek. Poszczególne zadania mogą być realizowane ręcznie - to znaczy przez urzędników nie korzystających z pomocy komputera, w sposób półautomatyczny lub automatyczny - przez autonomicznie pracujące programy komputerowe. Na przykład można wyobrazić sobie program komputerowy weryfikujący techniczne możliwości przyznania koncesji, poprzez porównanie parametrów technicznych podanych we wniosku, z bazą danych dostępnych częstotliwości.
Rysunek 1. Składowe zadania przepływu pracy
Specyfikacja przepływu pracy, oprócz kolekcji tworzących ją zadań, musi zawierać określenie kolejności i warunków ich uruchamiania. Na rys. 2 przedstawiono rozszerzoną specyfikację przepływu pracy, określającą kolejność wykonywania zadań. Po przyjęciu wniosku jest on bezwarunkowo przekazywany do analizy formalnej. Dalszy przepływ zadań zależy od wyniku tej analizy. Formalnie niepoprawne wnioski kierowane są bezpośrednio do etapu podejmowania decyzji, która w takim wypadku musi być negatywna. Poprawne wnioski są poddawane dalszej analizie. Równolegle wykonywana jest finansowa weryfikacja osoby prawnej składającej wniosek oraz wykonywana jest techniczna weryfikacja wniosku. Po zakończeniu tych zadań, uruchamiane jest kolejne zadanie podejmowania decyzji, co do przyznania koncesji lub odrzucenia wniosku. Na rys. 2 zaznaczono alternatywne przepływy zadań oznaczone etykietą, albo/oraz równoległe przepływy oznaczone etykietą i.
Rysunek 2. Sieć zadań przepływu pracy
Kolejne uszczegółowienie przepływu pracy powinno obejmować przepływ dokumentów i informacji między poszczególnymi zadaniami.
W ogólności, przepływy te nie muszą pokrywać się z przepływem sterowania. Rys. 3 zawiera uściślenie analizowanego przepływu pracy o ścieżki przepływu dokumentów i informacji. Dokument zawierający złożony wnio-
sek jest przekazywany do zadania - formalna analiza wniosku. Natomiast do zadań weryfikujących przekazywane są tylko informacje niezbędne dla ich wykonania. Dane techniczne do zadania ustalającego techniczne możliwości przydziału koncesji, a dane o podmiocie składającym wniosek do zadania weryfikacji tego podmiotu. Zadania weryfikujące przekazują do zadania podejmowania decyzji informacje o wyniku weryfikacji.
Rysunek 3. Przepływ dokumentów i informacji
Pełna specyfikacja przepływów pracy może opisywać jeszcze inne cechy. Na przykład, graniczne czasy wykonania poszczególnych zadań lub całego przepływu pracy, dla spełnienia wymogów udzielenia odpowiedzi
w ustawowym czasie; warunki początkowe i końcowe określające możliwość rozpoczęcia i zakończenia zadania, personalnych lub abstrakcyjnych uczestników procesu informacyjnego itp.
Wszystkie realizowane w urzędzie procesy przyznawania koncesji powinny być wystąpieniami (instancjami) powyższego schematu przepływu pracy. Na rys. 4 przedstawiono przykładowe wystąpienie zdefiniowanego przepływu pracy. W przykładzie do zadań weryfikacji przekazywane są niezbędne informacje do ich realizacji, ale w wyniku negatywnej analizy formalnej strony wniosku, nie będzie przekazane sterowanie. Zadania te nie zostaną uruchomione. Przepływ sterowania nastąpi bezpośrednio między zadaniem formalnej analizy wniosku, a zadaniem podjęcia decyzji. W danym momencie może być aktywnych wiele wystąpień tego samego przepływu pracy, znajdujących się na różnych etapach realizacji.
Rysunek 4. Przykładowe wystąpienie przepływu pracy
1.2 Zarządzanie przepływami pracy
Specyfikacja przepływów pracy jest podstawą do analizy poprawności działających procesów informacyjnych i w następstwie może przyczynić się do usprawnienia tych procesów (ang. process reengineering). Docelowym rozwiązaniem jest jednak pełna automatyzacja przepływów pracy. Polega ona na programowej koordynacji realizacji zadań wchodzących
w skład przepływu pracy, automatyzacji przepływu sterowania, dokumentów i informacji między tymi zadaniami oraz na monitorowaniu realizacji poszczególnych wystąpień przepływów pracy. Oprogramowanie realizujące powyższe cele jest nazywane systemem zarządzania przepływami pracy. Rynek informatyczny oferuje wiele komercyjnych narzędzi należących do tego typu oprogramowania.
Funkcjonalność systemów zarządzania przepływami pracy dotyczy trzech podstawowych dziedzin:
· Modelowania procesów informacyjnych jako przepływów pracy oraz modyfikacja istniejących specyfikacji. Formalna specyfikacja oraz graficzna reprezentacja modelu umożliwiają zrozumienia poprawności działania procesów informacyjnych. Zdefiniowany i zatwierdzony model jest podstawą działania dla funkcji koordynacji przepływów pracy. Elastyczne oprogramowanie pozwala na dynamiczne zmiany w modelu przepływów pracy.
· Koordynowania wystąpień przepływu pracy poprzez uruchamianie i komunikację z aplikacjami związanymi z realizacją poszczególnych zadań przepływu pracy. System zarządzania przepływów pracy działa w zastanym środowisku programowym, służącym do automatyzacji poszczególnych zadań, realizowanym w urzędzie. Środowisko to obejmuje systemy operacyjne, uniwersalne narzędzia do obróbki tekstów i arkuszy elektronicznych, pocztę elektroniczną, aplikacje systemów baz danych itp. System zarządzania przepływami pracy musi umieć komunikować się z tymi programami lub automatycznie je uruchamiać w celu realizacji zadań przepływu pracy i zapewnienia komunikacji między nimi.
· Udostępnianie funkcji monitorowania i administrowania wystąpieniami przepływów pracy osobom nadzorującym. Niezależnie od tego, że system zarządzania przepływami pracy sam koordynuje realizację przepływów pracy, dodatkowo umożliwia on zewnętrzny nadzór nad przebiegiem poszczególnych wystąpień przepływów pracy. Pozwala to, na ręczną modyfikację przydzielonych zadań, na przykład w wypadku nierównomiernego obciążenia poszczególnych stanowisk pracy. Monitorowanie przepływów pracy może być podstawą do modyfikacji modelu procesów informacyjnych.
Ogólna architektura systemu zarządzania przepływami pracy została przedstawiona na rys. 5. Wyróżniono tam trzy podstawowe komponenty tych systemów, odpowiadające trzem zdefiniowanym obszarom funkcjonalności oraz interfejsy między tymi komponentami i aplikacjami
zewnętrznymi.
Rysunek 5. Architektura systemu zarządzania przepływami pracy
.
Implementacja i wdrożenie systemów zarządzania przepływami pracy wymaga ich integracji z eksploatowanym dotychczas oprogramowaniem. Oprogramowanie takie jest w ogólności heterogeniczne - poszczególne komponenty oprogramowania mogą pochodzić od różnych dostawców
i być utworzone przy pomocy różnych technologii informatycznych, autonomiczne - każdy z programów działa samodzielnie i jest niezależnie administrowany, rozproszone - ulokowane na odrębnych komputerach (ang. HAD - heterogeneous, autonomous, distributed). Do integracji oprogramowania stosowane są otwarte platformy integracyjne, na przykład magistrale obiektowe zgodne ze specyfikacją standardu CORBA (ang. Common Object Request Broker Architecture).
Zastosowanie technologii systemów zarządzania przepływami pracy dla wsparcia zespołowej pracy biurowej, pozwoli na osiągnięcie następujących celów:
· Formalna analizy poprawności procesów informacyjnych, poprzez ich zamodelowanie jako przepływów pracy, przyczynia się do lepszego zrozumienia występujących w urzędach procesów informacyjnych. Dodatkowo można zastosować oprogramowanie, które poza modelowaniem przepływów pracy pozwala na ich komputerową symulację, ułatwiając w ten sposób wykrycie redundancji przepływów zadań i pokrywania się kompetencji różnych stanowisk, niespójności i wąskich gardeł: przepływu zadań, dokumentów i informacji. Wynikiem zastosowanej analizy powinno być usprawnienie procesów informacyjnych występujących w urzędach.
· Automatyzacja przepływów pracy wymusza realizację procesów podejmowania decyzji zgodnych z regułami prawnymi. Najprostszym przykładem jest możliwość ustawowego wymuszenia czasów odpowiedzi na wnioski i zapytania petentów.
· Funkcje służące do monitorowania przepływów pracy ułatwiają wgląd kierownictwa urzędów w procesy informacyjne. Na przykład umożliwiają automatyczną sygnalizację nieprawidłowości w obsłudze spraw
i ułatwiają ingerencję, w przypadku występowania zatorów, w obsłudze klientów urzędu, na niektórych stanowiskach - polegającą na zrównoważeniu obciążenia poszczególnych stanowisk pracy.
· Zwiększenie wydajności pracy urzędu, jako całości, poprzez pełną automatyzację przepływu zadań, dokumentów i informacji między różnymi stanowiskami pracy. Na przykład oprogramowanie może samo ge-
nerować i wysyłać standardowe listy elektroniczne z informacjami,
samo przesyłać dokumenty elektroniczne na określone w przepływie pracy stanowiska lub nawet samodzielnie uruchamiać aplikacje bazy danych.
· Wdrożenie komputerowego systemu zarządzania przepływami pracy wymusza pełną elektronizację wszystkich dokumentów i informacji.
W istotny sposób zwiększa to dostępność wszystkich przetwarzanych
w urzędzie danych, niezależnie od źródła ich pochodzenia: faksy, listy, dokumenty, poczta elektroniczna.
· Komputerowa implementacja przepływów pracy wiąże się z integracją różnych eksploatowanych w urzędzie programów, narzędzi informatycznych i platform sprzętowo-programowych.
2. Wspomaganie procesu decyzyjnego
Dla polepszenia jakości decyzji, podejmowanych przez kierownictwa urzędów, proces ten powinien być wspomagany komputerowymi systemami wspomagania decyzji. Jednak niezależnie od klasy tych narzędzi, podstawą jakości podejmowanych decyzji jest kompletny i poprawny zbiór danych wejściowych. Im pełniejszy i pewniejszy zbiór danych, tym lepszy wynik procesu decyzyjnego. Dlatego podstawową częścią systemów wspomagania decyzji są wyspecjalizowane bazy danych, zwane magazynami danych, które zapewniają wydajną analizę dużych wolumenów danych.
Architektura systemów wspomagania decyzji przedstawiona na rys. 6, składa się z następujących komponentów:
· Źródła informacji - potencjalnie mogą być nimi wszelkie programy eksploatowane w danej jednostce organizacyjnej: klasyczne operacyjne bazy danych, strony internetowe, arkusze kalkulacyjne, poczta elektroniczna itp. W ogólności źródła informacji są heterogeniczne i rozproszone.
· Moduł programowy odpowiedzialny za monitorowanie operacyjnych baz danych i zasilanie magazynu danych nowymi informacjami. Informacje wejściowe przed załadowaniem do magazynu danych muszą być: przetransformowane do postaci oczekiwanej przez magazyn danych, uspójnione, wyczyszczone i przetworzone.
· Właściwy magazyn danych, w którym można wyróżnić część służącą do przechowywania bieżących i historycznych danych elementarnych oraz część przechowującą wielowymiarowe dane zagregowane. Dane zagregowane są wyliczane i składowane w magazynie danych dla przyśpieszenia działania aplikacji analitycznych.
· Aplikacje analityczne wspierające procesy złożonej analizy danych. Technologie magazynów danych umożliwiają wykonywanie takiej analizy w trybie on-line, to znaczy bezpośrednio na żądanie użytkownika,
z natychmiastowym udostępnieniem jej wyników.
· Aplikacje wspomagania podejmowania decyzji, bazujące na wynikach analizy danych. Dostęp do aktualnych i kompletnych danych gwarantuje wysoką jakość wyników procesu podejmowania decyzji.
Rysunek 6. Architektura systemu wspomagania decyzji
2.1 Magazyny danych
Typowe aplikacje operacyjne systemów baz danych charakteryzują się stosunkowo prostym modelem przetwarzania zasobów. Model ten charakteryzuje się prostymi operacjami wyszukiwania i modyfikacji niewielkich podzbiorów danych dużej bazy danych. Technologie zaimplementowane
w klasycznych systemach baz danych są nakierowane na efektywne przetwarzanie dużej liczby współbieżnych, prostych operacji. Taki model przetwarzania nazywany jest przetwarzaniem transakcyjnym w trybie on-line (ang. On-Line Transaction Processing - OLTP). Klasyczne bazy danych znacznie gorzej radzą sobie ze złożonym przetwarzaniem analitycznym dużych wolumenów danych. Tej klasie systemów brak odpowiednich struktur danych i wydajnych metod dostępu właściwych dla złożonego przetwarzania analitycznego. Przetwarzania, które zazwyczaj polega na wyznaczeniu złożonych agregatów statystycznych (na przykład sum, wartości średnich, odchyleń standardowych) dla dużych zbiorów danych elementarnych. Ponadto, aplikacje analityczne przetwarzające bardzo duże wolumeny danych kolidują z pracą prostych aplikacji operacyjnych. Stąd potrzeba zastosowania nowej klasy autonomicznych systemów baz danych wyspecjalizowanych w wydajnym przetwarzaniu analitycznym, zwanych magazynami danych. Specyfiką magazynów danych jest wsparcie dla modelu przetwarzania analitycznego w trybie on-line (ang. On-Line Analytical Processing - OLAP).
Podstawowym modelem logicznym dla OLAP jest wielowymiarowy model danych (ang. multidimensional data model - MDD model). W modelu tym, dane są postrzegane przez użytkowników w postaci wielowymiarowego prostopadłościanu (tzw. kostki OLAP). Obiektem analizy w modelu MDD jest zbiór miar numerycznych nazywanych faktami. Fakt jest elementarną informacją przechowywaną w magazynie danych. Fakt jest daną numeryczną reprezentującą, na przykład sprzedaż produktów, oceny studentów, liczbę zarejestrowanych bezrobotnych, wartość składki emerytalnej itp. Wartość każdej miary zależy od zbioru wymiarów. Zbiór wymiarów określa kontekst miary. Przykładowo, zbiór wymiarów związanych
z miarą liczby bezrobotnych może zawierać: miejsce zamieszkania, wykształcenie bezrobotnego, jego płeć. W wielowymiarowym modelu danych, miara jest reprezentowana jako punkt w wielowymiarowej przestrzeni wymiarów. Każdy wymiar jest opisany zbiorem atrybutów. Przykładowo, wymiar miejsce zamieszkania może być opisany atrybutami: miejscowość, ulica, numer domu. Atrybuty wymiaru mogą tworzyć hierarchię atrybutu. Przykładowo, dla wymiaru miejsce zamieszkania, hierarchia może mieć postać: miejscowość ® gmina ® województwo.
Rysunek 7 przedstawia przykładową trójwymiarową kostkę z wymiarami miejsce zamieszkania, okres i wykształcenie oraz miarami dla konkretnych wartości atrybutów wymiarów. Na przykład z rysunku wynika, że w roku 2002 w Poznaniu zarejestrowało się 612 bezrobotnych o wykształceniu podstawowym.
Rysunek 7. Przykład kostki trójwymiarowej
Drugim składnikiem wielowymiarowego modelu danych jest zbiór operacji, służących do przetwarzania wielowymiarowych struktur danych.
Zbiór podstawowych operacji modelu jest następujący:
· Rozwijanie (ang. drill-down) - jest operacją, która polega na nawigacji wzdłuż hierarchii danego wymiaru, w celu rozbicia złożonych agregatów na agregaty składowe. Na przykład, liczba osób rejestrujących się
w urzędach pracy wyliczona dla poszczególnych lat, będzie rozbita na liczby rejestrujących się osób dla poszczególnych kwartałów, miesięcy itd. Na rys. 8, pokazano rozwinięcie hierarchii czasu dla przykładowej kostki wielowymiarowej. Analiza z poziomu lat została przeniesiona na poziom poszczególnych miesięcy. W jej wyniku liczba 612 rejestracji bezrobotnych w roku 2002 została rozbita na liczby rejestracji w poszczególnych miesiącach: 46, 52, 47 itd.
Rysunek 8. Operacja rozwijania wymiaru
· Zwijanie (ang. roll-up) - jest operacją odwrotną do rozwijania. Operacja zwinięcia wybranego wymiaru zmniejsza rozmiar kostki w tym wymiarze, zastępując agregaty bardziej elementarne na bardziej złożone.
Rysunek 9. Operacja cięcia
· Cięcie (ang. slice and dice) - jest operacją, która wycina przekroje wielowymiarowej kostki dla konkretnej wartości atrybutu jednego
z wymiarów. Operacja ta umożliwia dostęp do wnętrz kostki wielowymiarowej. Na rys. 9, pokazano wynik operacji cięcia wymiaru wykształcenie dla wartości atrybutu równej średniej.
· Obrót - jest operacją zmieniającą orientację kostki względem obserwatora zewnętrznego. Operacja ta uwidacznia niewidoczne wymiary kostki. rys. 10 pokazuje wynik operacji obrotu kostki tak by uwidocznić związek między wykształceniem, a wielkością bezrobocia.
Rysunek 10. Operacja obrotu
· Ranking - jest specyficznym agregatem wyszukującym pierwszych
n elementów zbioru. Na przykład, może go użyć do wyznaczenia pięciu województw o najmniejszej liczbie zarejestrowanych bezrobotnych.
Operacje wielowymiarowego modelu danych są wykorzystywane do tworzenia aplikacji analitycznych realizujących przetwarzania typu OLAP w środowisku magazynu danych. Można wyróżnić kilka podstawowych typów aplikacji analitycznych:
· Statyczne raporty - są to periodycznie generowane raporty o stałej predefiniowanej strukturze. Raporty te mogą mieć postać tekstową lub graficzną. Powinny być one podstawowym narzędziem pracy kadry zarządzającej. Aplikacje te pozwalają monitorować przebieg rozpoznanych procesów i zjawisk.
· Aplikacje analityczne pracujące w trybie on-line, posiadające interfejs graficzny, wielowymiarowych arkuszy elektronicznych lub klasycznych raportów. Ich kształt i zakres jest za każdym razem dynamicznie określany przez użytkownika. Aplikacje te nadają się do weryfikacji hipotez kadry zarządzającej.
· Aplikacje eksploracji danych (ang. data mining), które wspomagają wyszukiwanie nieznanych procesów i zjawisk. Nowe hipotezy są wyszukiwane w sposób zautomatyzowany przez oprogramowanie na podstawie określonych typów zależności między danymi.
2.2 Eksploracja danych
Analiza danych w magazynie danych jest kontrolowana całkowicie przez analityka - użytkownika aplikacji analitycznych. Analiza ta służy weryfikacji postawionych hipotez. Analityk formułuje zapytania i dokonuje analizy danych zawartych w magazynie. Kształt zapytania określa weryfikowaną hipotezę. Na przykład: czy istnieje zależność między poziomem wykształcenia a wielkością bezrobocia? Uzyskane w wyniku analizy zagregowane wartości liczbowe weryfikują pozytywnie lub negatywnie postawioną hipotezę.
W przeciwieństwie do klasycznych aplikacji analitycznych, eksploracja danych umożliwia automatyczną analizę i eksplorację danych. Problem eksploracji danych polega na automatycznym wyszukiwaniu potencjalnych hipotez przez efektywne znajdowanie nieznanych dotychczas zależności
i związków pomiędzy danymi. Automatyczna eksploracja danych otwiera nowe możliwości w zakresie interakcji użytkownika z magazynem danych. Przede wszystkim umożliwia formułowanie zapytań na znacznie wyższym poziomie abstrakcji, aniżeli pozwalają na to operacje wielowymiarowe. Analiza danych sterowana zapytaniami, charakterystyczna dla technologii OLAP, zakłada, że użytkownik posiada pełną wiedzę o przedmiocie analizy i potrafi sterować tym procesem. Eksploracja danych umożliwia analizę danych dla problemów, które ze względu na swój rozmiar są trudne do przeprowadzenia przez człowieka oraz tych problemów, które są jeszcze nieznane.
To drugie zagadnienie wiąże się bezpośrednio z problemem formułowania zapytań: w jaki sposób uzyskać dostęp do danych, w przypadku kiedy nie potrafimy sformułować zapytania w terminach języka dostępu do bazy danych? Jest to typowa sytuacja w systemach wspomagania podejmowania decyzji. Przykładowo, w jaki sposób zidentyfikować rekordy w bazie danych firmy telekomunikacyjnej, które odpowiadają "fałszywym" połączeniom? Podobnie, w przypadku kart kredytowych interesuje nas wykrycie kradzieży tych kart i ich niestandardowe wykorzystanie. W przypadku analizy danych naukowych uzyskanych z dużej liczby eksperymentów interesuje nas wykrycie ciekawych przypadków. Oczywiście, można analizować rekord po rekordzie w bazie danych rozpatrując oddzielnie każdy przypadek; podejście takie jest jednak mało realistyczne w przypadku dużych baz danych.
Metody eksploracji danych można podzielić bardzo ogólnie na sześć zasadniczych klas.
· Odkrywanie asocjacji - jest to najszersza klasa metod, obejmująca najogólniej odkrywanie różnego rodzaju nieznanych zależności w bazie danych. Metody należące do tej klasy obejmują głównie odkrywanie asocjacji pomiędzy danymi. Generalnie, odkrywane zależności posiadają pewne miary statystyczne określające ich wsparcie i ufność.
· Grupowanie - celem metod tej klasy jest znajdowanie skończonego zbioru klas danych (grup) w bazie danych, posiadających podobne cechy. Liczba grup jest nieznana, stąd proces grupowania przebiega najczęściej w dwóch cyklach: cykl zewnętrzny przebiega po liczbie możliwych grup, cykl wewnętrzny próbuje znaleźć optymalny podział danych pomiędzy grupy.
· Odkrywanie wzorców sekwencji - polega na odkrywaniu czasowych wzorców zachowań, na przykład znajdowanie sekwencji notowań giełdowych lub sekwencji zdarzeń, które powodują przejście ze stanu bezrobocia do stanu aktywności zawodowej.
· Odkrywanie klasyfikacji - celem tej klasy metod jest znajdowanie zależności pomiędzy klasyfikacją obiektów a ich charakterystyką. Zastosowaniem tej klasy metod jest charakterystyka osób pozostających trwale bezrobotnymi, klientów kart kredytowych, pożyczkobiorców itp.
· Odkrywanie podobieństw w przebiegach czasowych - metody tej klasy służą do znajdowania podobieństw w przebiegach czasowych opisujących określone procesy.
· Wykrywanie zmian i odchyleń - polega na znajdowaniu różnic pomiędzy aktualnymi a oczekiwanymi wartościami danych: znajdowanie anomalnych zachowań klientów ubezpieczalni, klientów kart kredytowych, klientów firm telekomunikacyjnych.
Podsumowanie
Aktualny stan informatyzacji urzędów w Polsce nie jest zadowalający. Dość powszechnie stosowane są jedynie najprostsze i uniwersalne technologie informatyczne, takie jak edytory tekstów i poczta elektroniczna.
W początkowym stadium znajdują się działania mające na celu przybliżenie urzędów obywatelom za pomocą zdalnego dostępu poprzez aplikacje internetowe. Natomiast prawie wcale nie stosuje się bardziej wyrafinowanych technologii informatycznych, które znacząco mogłyby zwiększyć wydajność i jakość pracy urzędów. Przykładem takich niewykorzystywanych technologii mogą być systemy zarządzania przepływami pracy oraz systemy wspomagania decyzji oparte o technologie magazynów danych.
Systemy zarządzania przepływami pracy przyczyniają się do usprawnienia realizacji procesów informacyjnych. Pozwalają one na automatyzację przepływów zadań, dokumentów i informacji. Dzięki pełnemu sformalizowaniu procesów informacyjnych wdrożenie tej klasy oprogramowania, mogłoby się przyczynić dodatkowo do ograniczenia arbitralności w podejmowaniu decyzji. Do znanych i nagradzanych wdrożeń tej klasy systemów w urzędach europejskich należą na przykład: wdrożenie w ośrodkach pomocy socjalnej w Holandii, czy wdrożenie rejestru skazanych w Niemczech.
Z kolei technologia magazynów danych wspiera proces podejmowania decyzji poprzez udostępnianie na żądanie złożonych analiz danych. Dzięki wdrożeniom systemów informatycznych w coraz większej liczbie urzędów zwiększa się liczba potencjalnych źródeł danych. Przykładem mogą być systemy Poltax w urzędach skarbowych, Puls i Pomost w urzędach pracy
i ośrodkach pomocy społecznej oraz wdrażany system ZUS. Systemy te powinny zawierać najpełniejsze i najbardziej aktualne informacje o bezrobociu, rynku pracy, pracodawcach. Informacje te powinny być podstawą do podejmowania trafnych decyzji. Nie korzystanie z tych informacji oznacza podejmowanie znaczących dla całego kraju decyzji, na ślepo - bez pełnego rozeznania aktualnej sytuacji.
Literatura
[1] D. Georgakopoulos, M. Hornick, An Overview of Workflow Management: From Process Modeling to Workflow Automation Infrastructure, in Distributed and Parallel Databases pp 119-153, 1995
[2] Workflow Management Coalition Documents: Workflow Reference Model, Terminology & Glossary,
[3] U. Fayyad, G. Piatetsky-Shapiro, [eds.], Advances in Knowledge Discovery and Data Mining, MIT Press, 1996
[4] T. Morzy, Eksploracja danych: problemy i rozwiązania, Konferencja PLOUG 2001
[5] Jarke, M., Lenzerini, M., Vassiliou, Y., Vassiliadis, P., Fundamentals of Data Warehouses, Springer-Verlag Berlin Heidelberg, 2000